之前在完成介紹完工作流程階段與異常值糾正後,使用了 Python 進行樞紐分析(Pivoting Table)功能,樞紐分析可以讓數據分析師利用最短的時間快速判斷出資料的類型,而且在使用上非常方便,尤其是 Excel 上,本篇文章就要帶大家利用 Excel 才使用樞紐分析功能。
使用樞紐分析功能就像是拼圖一樣簡單,得益於 Excel 試算表的快速發展,讓樞紐分析不再像寫程式般複雜難懂,取而代之的是簡單的拖拉動作,就如同拼拼圖一樣,可以快速的找到適合的位置產出報表,我們這次使用 Excel 來做製圖介紹。樞紐分析功能已經內建在 Excel 中,我們可以先把所有的資料集選取起來,並且點選 Insert(插入)在裡面找到 Pivoting Table(樞紐分析)欄目。
接下來會跳出工具列表為樞紐分析做提前設定,我們能夠確定資料來源,調整選取的範圍,底下也有選項選擇是否要建立新的 WorkSheet。
因為要了解船艙與生存率的關聯,所以「船艙 Pclass」會是我們最主要的欄目,利用拖拉的方式把 Pclass 放入 Row 中,而「生存 Survived」則是以 Value 方式拖進表中,我們將 Survived 存活率調整為 Average 平均值可以看到表格得出樞紐分析的結果。
你是否有注意到生存率的數值不是百分比(%)其實感覺還蠻怪的?在 Excel 上我們能夠順序且順手的進行資料顯示格式的調整,所以我們將格式調整為 (%) 顯示。
我們這次以性別與生存率來進行說明。利用拖拉的方式把「性別 Sex」放入 Row 中,而「生存 Survived」放入 Value 表中,我們將 Survived 存活率調整為 Average 平均值看看樞紐分析的結果。男性跟女性是女性(Sex=female)更有可能倖存下來,而且女性有非常高的存活率。
我們可以利用 Excel 中的樞紐分析達到所期待的功能,甚至我們能夠根據資料顯示格式做調整,把數值變成百分比,又或者是你想要快速製作一張圖片,也能夠很直覺的建一個新的圖出來。
我們點擊 Insert 插入一個新的 Chart 並且快速點擊圖片就能做圖片的調整跟更新。
假設我們想要了解年齡,因為年齡分佈過於廣泛從最高年齡 80 歲,最小年齡僅有 0.42 歲,這個範圍實在過大,因此在製作圖表時我們可能不是很方便來看,這個時候就要把資料進行 Grouping,假設我們分 0-80 歲,我可以設定 8 個不同的 Group,以 10 歲年齡為分界好了,這樣資料看起來就會變得乾淨許多。
因此我們先在 Raw Data 中新建一個新的欄位,利用 Rounddown 來進行資料分組:
=ROUNDDOWN(G2,-1) 使用的方式為將資料來源降至小數點前一位
意思是 58 的數字,會去除尾數 8,降至 50
有了這樣的分類後回到樞紐分析表中,我們把剛剛建立的 AgeGroup 放入 Row 中,並且使用 Survied 進行生存比例分析,可以得出下面的結果。
今年沒組團,每一筆一字矢志不渝的獻身精神都是為歷史書寫下新頁,有空的話可以走走逛逛我們去年寫的文章。
Jerry 據說是個僅佔人口的 4% 人口的 INFP 理想主義者,總是從最壞的生活中尋找最好的一面,想方設法讓世界更好,內心的火焰和熱情可以光芒四射,畢業後把人生暫停了半年,緩下腳步的同時找了份跨領域工作。偶而散步、愛跟小動物玩耍。曾立過很多志,最近是希望當一個有夢想的人。
謝謝你的時間「訂閱,追蹤和留言」都是陪伴我走過 30 天鐵人賽的精神糧食。